home *** CD-ROM | disk | FTP | other *** search
/ Meeting Pearls 4 / Meeting Pearls Vol. IV (1996)(GTI - Schatztruhe)[!].iso / Contrib / Patricia / Patricia.dok < prev    next >
Text File  |  1995-09-26  |  6KB  |  133 lines

  1.                                  Patricia
  2.          ---===================================================---
  3.      Practical Algorithm To Retrieve Information Coded In Alphanumeric
  4.  
  5. Übersicht
  6. ---------
  7. Dies ist eine Implementierung einer erweiterten Version von D.R. Morrison's
  8. in [1] beschriebenem Patricia. Einige der Features sind:
  9.  
  10. - Suche nach einem beliebigen Text in AmigaGuide und ASCII Dateien.
  11. - Das Ergebnis ist ein AmigaGuide Dokument mit Links zu allen Dateien, bzw.
  12.   AmigaGuide-Nodes, in denen der Suchtext gefunden wurde, und Angaben, wie oft
  13.   der Text gefunden wurde.
  14. - Die gefundenen Textstellen können farblich hervorgehoben werden.
  15. - Die Suche basiert auf einer vorausberechneten Datenbank, daher ist die
  16.   Suche sehr schnell.
  17. - Mit einer geeigneten Datenbank werden alle Vorkommen (auch als Wortbe-
  18.   standteil) jedes Wortes gefunden. Bei der Datenbankerzeugung kann die
  19.   Menge der Worte, die in die Datenbank aufgenommen werden, jedoch
  20.   eingeschränkt werden, um die Datenbankgröße zu verringern.
  21.  
  22. PSearch Dokumentation:
  23. ----------------------
  24. PSearch kann von Workbench und Shell gestartet werden und unterstützt alle
  25. OS >= 1.2. Shell-Argumente ab OS 2.04 sind:
  26.  
  27. DataBases/A/M,Search/K,P=FilePattern/K,NOH=NoHighlight/S,Profile/S,
  28. BaseDir/K,TempDir/K,GuideViewer/K,TextViewer/K,PHighPath/K
  29.  
  30. DataBases   - eine Liste von Patricia Datenbanken, in denen gesucht wird
  31. Search      - Text(e), nach dem/denen gesucht wird (s.a. unten)
  32. FilePattern - nur Dateien, die zu diesem Pattern passen, werden durchsucht
  33. NoHighlight - gefundene Textpassagen nicht hervorheben
  34. Profile     - einige Statistiken beim Suchen anzeigen
  35. BaseDir     - Pfad der durchsuchten Dateien;
  36.               normalerweise in der Datenbank selbst auch gespeichert
  37. TempDir     - wird zum Zwischenspeichern und für hervorgehobene Texte
  38.               verwendet, Default: "T:"
  39.               Sollte der Speicher nicht reichen, entweder auf Platte legen
  40.               oder mit "NoHighlight" suchen.
  41. GuideViewer - AmigaGuide Anzeiger, Default: "AmigaGuide []"
  42.               Achtung: Um die richtige Node in einem hervorgehobenen
  43.               Dokument anzuzeigen, wird immer
  44.               "AmigaGuide xxx Document yyy" benutzt!
  45. TextViewer  - wird verwendet um ASCII Texte anzuzeigen, Default: "More []"
  46. PHighPath   - der Pfad von PSearch
  47.               Kann weggelassen werden, wenn PHighlight im Suchpfad oder im
  48.               aktuellen Verzeichnis beim Starten von PSearch steht.
  49.  
  50. Unter OS <= 1.3 wird Unix Argument-Parsing verwendet und einige Features
  51. stehen nicht zur Verfügung: GUI, Profiling und Pattern Matching.
  52.  
  53. PSearch -s Search -n -b BaseDir -t TempDir -g GuideViewer
  54.         -v TextViewer -h PHighPath - DataBase1 DataBase2 ...
  55.                                   ^^^
  56.                          Bitte den Bindestrich beachten!
  57. -sbtgvh - wie oben
  58. -n      - NoHighlight
  59.  
  60. PHighlight  wird  von PSearch verwendet, um Textabschnitte hervorzuheben. Es
  61. sollte  nicht per Hand aufgerufen werden. Es wird wird von PSearch gefunden,
  62. wenn  es  im Suchpfad oder im beim Starten von PSearch aktuellen Verzeichnis
  63. steht.
  64.  
  65. Suchtext
  66. --------
  67. PSearch kann nach einer  beliebig großen Anzahl von Texten suchen, die durch
  68. " | " getrennt werden. Die Leerzeichen um das "|" sind nötig, da es sonst zu
  69. dem benachbarten Wort dazugezählt wird. Ein einzelner Text kann aus mehreren
  70. Worten bestehen. Der Text wird nur dann gefunden, wenn die Worte im Text und
  71. in den Dateien durch genau diesselbe Anzahl Leerzeichen getrennt werden, d.h.
  72. "Meeting Pearls" (ein Leerzeichen) unterscheidet  sich von "Meeting  Pearls"
  73. (zwei   Leerzeichen).  Return,  Leerzeichen  und  Tabulatoren  werden  nicht
  74. unterschieden.
  75.  
  76. Ein  Text wird unter Umständen nicht gefunden, wenn er ein Wort enthält, das
  77. zu  kurz  ist  oder  im  Text  zu  oft  vorkommt.  Im  Ergebnis  wird darauf
  78. hingewiesen,  es  gibt  aber auch ein "Workaround": Angenommen, es soll nach
  79. "Dummmy-Name ist Dummmy-Adjektiv." gesucht werden.
  80.  
  81. "ist" wird wahrscheinlich an dieser Stelle in der Datenbank nicht vorkommen.
  82. Daher  würde  diese  Stelle  nicht gefunden  werden. Statt dessen  kann nach
  83. "Dummy-Name     Dummy-Adjektiv"  (drei   Leerzeichen  statt  "ist")  gesucht
  84. werden. Dies wird mehr Auftreten finden, aber es findet auch "Dummy-Name war
  85. Dummy-Adjektiv".
  86.  
  87. Einschränkungen
  88. ---------------
  89. Wenn  die  Anzahl  der  in  der  Datenbank  gespeicherten  Worte absichtlich
  90. eingeschränkt  wurde  oder  ein Fehler auftrat, dann wird das Ergebnis nicht
  91. vollständig  sein.  Im  Ergebnis-AmigaGuide  Dokument  wird darauf mit einer
  92. genauen   Erklärung  hingewiesen.  Allen  ungenauen  Zahlen  wird  ein  ">="
  93. vorangestellt.
  94.  
  95. Wenn  ein  Wort  in  einem  AmigaGuide  Dokument  zum  Teil in einem anderen
  96. Textstil  geschrieben  wird,  dann  kann nur nach dem einen oder dem anderen
  97. Teil  gesucht  werden,  nicht  nach dem ganzen Wort. Außerdem wird bei einer
  98. Suche  nach  einem  Text  aus mehreren Worten diese Sequence nicht gefunden,
  99. wenn zwischen den Worten in der Datei Formatanweisungen stehen, weil PSearch
  100. die Formatanweisungen nicht von Leerzeichen unterscheiden kann.
  101.  
  102. Distribution
  103. ------------
  104. Diese  Distribution  enthält  nur  die  zur  Textsuche notwendigen Programme
  105. (PSearch  und  PHighlight).  Sie können frei vertrieben werden. Das Programm
  106. PCreateDB,  mit dem eine Datenbank erstellt werden kann, ist nicht enthalten
  107. und  darf  auch  nicht  ohne Erlaubnis des Autors weitergegeben werden. Alle
  108. Programme und Textdateien sind © 1995 Patrick Ohly.
  109.  
  110. Wenn  Sie  Patricia für eigene Datenbanken verwenden oder vertreiben wollen,
  111. dann fragen Sie bitte den Autor um Erlaubnis und Konditionen. Angela Schmidt
  112. hat  hiermit  die  Erlaubnis,  Datenbanken  für  die  Meeting  Pearls III zu
  113. erstellen  und  PSearch,  PHighlight  und  diese  Anleitung auf dieser CD zu
  114. vertreiben.
  115.  
  116. Autor
  117. -----
  118. Patrick Ohly
  119. Weechstr. 1, WG E0/1
  120. 76131 Karlsruhe
  121. Germany
  122.  
  123. Tel.: +49 721 615662
  124. eMail: patrick.ohly@stud.uni-karlsruhe.de
  125. IRC: Irish@AmigaGer
  126.  
  127.  
  128. Quellen
  129. -------
  130. [1] R. Sedgewick, Algorithmen; Addison-Wesley 1992
  131. [2] D. E. Knuth, The Art of Computer Programming,
  132.     Volume 3: Sorting and Searching, Addison-Wesley 1975
  133.